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基于 本 体 的 研究 主题 语义 分 析 方 法 研究 


罩 冯 佳 ” 张 云 秋 
吉林 大 学 公共 卫生 学 院 长春 130021 

摘要 : [目的 /意义 ] 旨 在 深入 语义 层面 对 研究 主题 进行 分 析 。[ 方 法 /过 程 ] 提出 基于 本 体 的 研究 主题 语 
义 分 析 方 法 ,从 语义 类 型 和 与 语义 关联 两 个 维度 展开 ,并 在 实证 研究 过 程 中 ,以 “医学 信息 学 ”为 例 , 对 方法 进行 
验证 。[ 结果 /结论 ] 结果 表明 ,语义 类 型 分 析 能 够 辅助 研究 者 对 研究 主题 的 内 容 进行 进一步 的 语义 理解 ;语义 
关联 分 析 从 语义 角度 分 析 各 个 研究 主题 在 语义 含义 上 的 关联 ,在 辅助 研究 者 分 析 菜 领域 研究 主题 时 ,能 够 综合 


分 析 相 关 主 题 ,并 发 现 新 的 研究 交叉 点 。 
关键 词 : 研究 主题 语义 分 析 本 体 
分 类 号 : G250 


kb 要 DOI:10. 13266/j. issn. 0252 -3116.2018.07.011 


主题 通常 是 指 文章 所 论述 或 研究 的 主要 内 容 。 茶 
领域 的 研究 主题 能 够 反映 出 该 领域 的 研究 方向 。 识 别 
研究 主题 ,把 握 领 域 方向 ,对 于 科学 研究 者 具有 重要 意 
Xi 年 来 ,主题 模型 快速 流行 ,并 且 被 广泛 应 用 于 多 
种 域 料 的 主题 抽取 ,如 学 术语 料 、Web 本 文 社会 化 媒 
体 次 源 等 。 主 题 模 型 是 对 文档 中 隐 含 主题 的 一 种 建 模 
方法 ,能 够 基于 文本 语料库 识别 出 潜在 的 主题 。 目 前 ， 
主题 模型 法 广泛 应 用 于 学 术语 料 ,对 其 进行 建 模 从 而 
识 虽 出 研究 主题 。 然 而 ,对 于 研究 主题 的 分 析 多 依赖 
研 苑 者 的 背景 知识 , 且 研 究 者 的 科研 素养 和 知识 背景 
不 辆 ,因而 导致 分 析 结 果 具 有 较 强 的 主观 性 。 在 定量 
分 析 方 面 ,对 于 研究 主题 的 分 析 可 分 为 基于 文献 计量 
学 的 方法 ,基于 知识 图 谱 的 可 视 化 方法 。 

基于 文献 计量 学 的 方法 大 多 从 研究 主题 的 时 间 分 
布 期 刊 分 布 . 地 区 分 析 、 国 家 分 布 . 作 者 分 布 等 方面 结 
合 研 究 主 题 的 内 容 进行 分 析 和 阐述 。 如 2014 年 , 静 发 
冲 等 人 利用 文本 控 据 的 方法 ,对 美国 国家 科学 基金 会 
生物 科学 部 新 兴 前 沿 科学 处 的 在 研 项 目 进行 文本 聚 类 
和 内 容 分 析 ,在 主题 的 分 析 过 程 中 ,结合 各 主题 的 时 间 
分 布 和 内 容 信息 ,展示 了 各 类 主题 的 项 目 研究 内 容 , 并 
归纳 和 总 结 出 各 类 项 目的 主要 特点 … 。 

对 于 基于 知识 图 谱 的 可 视 化 方法 ,大 多 研究 者 从 
图 谱 的 节点 内 容 、` 节 点 连接 强度 和 节点 的 位 置 对 研究 


主题 的 内 容 进 行 分 析 与 解读 。 如 2009 年 栾 春 娟 对 
1995 - 2007 年 期 间 《 科 学 计量 学 》 出 版 的 关于 国际 专 
利 计量 研究 的 论文 和 引文 进行 计量 分 析 , 绘 制 了 作者 
共 被 引 网 络 .关键 词 共 现 网 络 和 作者 学 术 合 作 群 体 网 
络 , 形 象 地 反映 了 国际 专利 计量 研究 的 代表 人 物 和 研 
究 主题 ”。2013 年 , 魏 晓 峰 采用 知识 图 谱 对 国外 信息 
可 视 化 研究 演进 、 热 点 主题 进行 分 析 , 并 结合 知识 图 谱 
进行 进一步 分 析 ”。2014 年 ,S. Y.， Cheng 采用 可 视 化 
技术 对 进行 电子 政府 (Electronic Covernment ) 领域 的 研 
究 主题 进行 识别 与 分 析 "。 

目前 ,对 于 研究 主题 的 分 析 多 基于 结果 的 简单 呈 
现 , 如 列表 ,矩阵 或 知识 图 谱 等 ,笔者 拟 基 于 本 体 对 研 
究 主 题 进行 映射 ,借助 本 体 的 语义 类 型 和 语义 结构 对 
研究 主题 从 内 容 层 面 进行 深入 分 析 。 

本 体 作 为 一 种 能 在 语义 和 知识 层次 上 描述 信息 的 
概念 模型 建 模 工具 。 对 于 本 体 的 定义 ,R，Studer 等 人 
给 出 了 较为 清晰 的 解释 :“ 知 识 本 体 是 对 概念 体系 的 明 
确 的 形式 化 .可 共享 的 规范 说 明 ”” 。“ 明 确 ” 指 的 是 
所 采用 概念 的 类 型 及 它们 应 用 的 约束 实行 明确 的 定 
义 “ 形 式 化 " 指 知 识 本 体 是 能 被 计算 机 处 理 ， 共 享 ” 
是 指 知识 本 体 应 构建 相关 领域 中 公认 的 概念 集 。 通 常 
可 以 把 知识 本 体 看 成 是 “领域 知识 规范 的 抽象 和 描述 ， 
表达 共享 .重用 知识 的 方法 ”” 。 

本 体 构 建 的 初 囊 是 集成 某 领域 的 相关 知识 ,提供 
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对 该 领域 知识 概念 的 共同 理解 ,确定 领域 内 共同 认可 
的 知识 概念 。 把 一 个 领域 的 知识 抽象 成 一 套 概念 体 
系 ,并 以 一 个 个 词 表 来 表示 ,包括 每 一 个 词 的 明确 定 
义 、 词 与 词 之 间 的 关系 以 及 该 领域 的 一 些 公 理性 知识 
的 陈述 等 ,并 且 能 够 在 该 领域 的 专家 之 间 达 成 共识 ,如 
此 便 构成 了 某 领域 的 本 体 。 笔 者 拟 基 于 领域 本 体 的 知 
识 概念 结构 ,并 从 语义 类 型 和 语义 关联 角度 对 研究 主 
题 进行 分 析 , 则 在 深入 语义 层面 对 其 进行 分 析 和 人 解读。 


2 研究 主题 的 语义 类 型 分 析 


词汇 或 概念 的 语义 类 型 可 以 理解 为 是 一 种 概念 属 
性 ,可 以 对 概念 进行 描述 和 解释 。 英 国语 言 学 家 利 奇 
(L.， Geoffrey ) 在 《语义 学 》 一 书 中 提出 了 语义 类 型 这 个 
概 舍 ”。 语 义 类 型 是 按照 语言 的 运用 规律 ,从 语义 和 
人 美 交 际 的 角度 区 分 的 。 他 将 词语 的 意义 分 为 7 种 类 
念 意义 (Conceptual Meaning) 内涵 意义 (Conno- 
相 Meaning) .社会 意义 (Social Meaning) .感情 意义 
(Alective Meaning ) .联想 意义 (Reflective Meaning ) 、 搭 
醒 闹 义 ( Collective Meaning ) 和 主题 意义 ( Thematic 


部 分 的 固有 的 ,本 质 的 ,与 词汇 所 在 上 下 文 无 关 的 语义 
特定。 而 且 和 语义 类 型 以 一 定 的 逻辑 关系 构成 一 个 语 
X 美 型 结构 体系 ,这 为 本 体 在 自然 语言 处 理 中 的 应 用 
PR 了 坚实 的 基础 。 
> 目前 ,语义 类 型 的 分 析 方 法 主要 是 语义 角色 的 标 
注 法 和 基于 本 体 的 语义 类 型 分 析 法 。 通 过 语义 角色 标 
汶 溪 来 进行 语义 类 型 分 析 可 以 对 科技 文本 的 研究 内 容 
进行 系统 的 分 析 和 解读 ,提高 研究 者 对 科技 文本 理解 
的 深度 和 准确 度 。 语 义 角色 标注 是 对 句子 中 的 动词、 
名 词 ,形容词 等 进行 语义 角色 标注 ,通过 分 析 语 义 角色 
类 型 来 实现 句子 级 别 的 浅 层 语义 分 析 "。 如 2013 年 ， 
张 泽 宇 等 ”借鉴 NCBO Annotator 的 思想 ,结合 本 体 知 
识 库 和 WordNet 的 语义 知识 ,提出 了 一 种 基于 语义 的 
文档 语义 角色 标注 方法 。 语 义 角色 标注 的 重点 是 对 名 
子 中 谓词 所 支配 的 语义 角色 (如 施 事 、 受 事 . 时 间 和 地 
点 等 ) 进行 自动 标注 。 然 而 在 科技 文献 文本 挖掘 的 过 
程 中 ,对 于 科技 文献 的 语义 分 析 , 其 重点 在 于 分 析 专业 
词汇 (名 称 ,动词 等 ) 的 语义 类 型 。 

基于 本 体 的 语义 类 型 分 析 是 将 文本 中 的 词语 映射 
到 本 体 中 的 概念 上 ,并 分 析 概 念 的 语义 类 型 。 本 体 是 
一 套 具有 完整 结构 的 概念 体系 ,并 在 这 个 体系 中 ,每 个 
概念 有 其 附带 的 语义 类 型 ,可 以 对 概念 进行 描述 和 解 


释 ,这 是 通过 本 体 实现 语义 类 型 分 析 的 基础 。 本 体 是 
一 种 概念 化 的 语义 表示 方法 ,根据 本 体 思想 建立 的 具 
有 代表 性 的 语义 词典 有 WordNet 和 HowNet 等 。 有 研 
究 者 尝试 基于 本 体 来 分 析 文 本 的 语义 类 型 ,如 2007 
年 , 张 蛤 等 "根据 UMLS 中 概念 所 属 的 语义 类 型 来 控 
掘 文献 间 的 潜在 联系 。 将 本 体 论 应 用 到 语义 类 型 分 
析 ,为 语义 层次 上 的 文本 挖掘 提供 了 理论 支持 。 

笔者 采用 基于 本 体 的 语义 类 型 分 析 , 将 研究 主题 
的 主题 词 项 进行 概念 映射 ,将 主题 词 袋 转换 为 “概念 词 
袋 ” ,并 深入 挖掘 词 袋 中 概念 的 语义 类 型 ,使 研究 主题 
的 分 析 结 果 更 加 丰富 。 


3 ”研究 主题 的 语义 关联 分 析 
为 进一步 分 析 研 究 主题 的 语义 信息 , 拟 采 用 语义 


距离 来 测度 研究 主题 间 的 语义 相似 度 。 语 义 相似 度 能 
够 反映 出 词汇 之 间 在 知识 概念 和 逻辑 关系 上 的 关联 。 
笔者 拟 从 语义 分 析 的 视角 ,为 研究 主题 进行 语义 关联 
程度 的 分 析 ， 
词语 语义 上 的 关系 可 由 领域 本 体 体现 。 本 体 是 一 
套 概 念 框架 ,给 出 一 套 词汇 来 标识 一 套 概 念 ' 。 领 域 
本 体 包含 了 领域 的 概念 结构 ,将 概念 按照 一 定 的 层级 
结构 进行 组 织 。 基 于 领域 本 体 来 计算 概念 语义 距离 的 
基础 是 两 个 概念 具有 一 定 的 语义 相关 性 , 即 概念 在 本 
体 网 络 中 存在 一 条 通路 。 术 语 间 概 念 上 的 亲 下 关 系 ， 
即 术语 在 本 体 中 的 相对 位 置 可 以 由 语义 距离 来 衡量 。 
因此 可 以 借助 本 体 经 概念 映射 ,将 共 现 的 词汇 转换 为 
本 体 中 的 术语 ,并 通过 本 体 中 术语 之 间 的 相对 位 置 来 
衡量 其 概念 上 的 亲 政 关系 。 由 此 ,基于 领域 本 体 的 语 
义 距 离 能 够 代表 概念 在 知识 上 的 内 在 关联 程度 。 
目前 针对 语义 距离 的 研究 相对 成 熟 , 科 研 成 果 
富 。 基 于 本 体 的 语义 距离 除了 考虑 术语 间 的 路 径 长 度 
外 ,还 考虑 到 了 其 他 一 些 因素 ,如 概念 层次 树 的 深度 、 
概念 层次 树 的 区 域 密度 等 。 路 径 长 度 相同 的 两 个 术 
语 ,如 果 位 于 概念 层次 的 越 底层 ,其 语义 距离 越 大 ;路 
径 长 度 相 同 的 两 个 术语 ,如 果 位 于 概念 层次 树 中 高 密 
度 区 域 ,其 语义 距离 应 大 于 位 于 低 密 度 区 域 的 。 
笔者 选取 语义 距离 来 度量 不 同 概念 在 知识 上 的 内 
在 关联 程度 。 语 义 距离 是 指 概念 在 本 体 层次 树 中 的 最 
短路 径 上 每 一 条 边 的 权 值 总 和 5 ,通过 关联 程度 的 几 
何 度量 来 有 效 表 征 概念 间 的 相似 程度 。 语 义 距 离 是 衡 
量 两 个 概念 相似 度 的 最 基本 因素 ,一 般 而 言 它 对 概念 
相似 度 的 影响 比 其 他 因素 都 大 ” 。 
语义 距离 一 般 以 语义 词典 为 基础 ,语义 词典 是 对 


[让 
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概念 的 组 织 , 通 常 为 树 状 或 网 状 层次 结构 ,多 以 本 体 、 
叙 词 表 等 形式 表示 。 以 本 体 为 例 ,这 种 方法 通过 概念 
在 本 体 树 中 的 位 置 .距离 等 信息 来 计算 两 个 概念 之 间 
的 相似 度 。 两 个 概念 的 语义 距离 与 本 体 树 中 路 径 长 度 
与 深度 有 关 。 常 用 的 语义 距离 算法 有 Leacock Chodor- 
ow 法 0 、Weighted Links 法 、 Wu and Palmer 法 '' 
等 。 

笔者 选取 经 典 的 Leacock Chodorow 法 来 计算 语义 
距离 ,该 算法 的 核心 思想 是 :概念 的 相似 度 与 概念 在 本 
体 层 次 中 的 路 径 长 度 以 及 本 体 层 次 结构 的 深度 有 关 。 
计算 公式 为 : 


Sim( Ci , C2) 二 


be 2 Den 公式 0) 
一 上 述 公式 (1) 中 len( C,,C,) 表 示 概念 词 C 和 C， 
在 涩 体 树 中 的 最 短路 径 长 度 ,Depth 表示 本 体 树 的 深 
度 中 

CO 如 何 进行 研究 主题 的 语义 关联 分 析 , 本 文 的 研究 
感 品 如 下 :首先 进行 数据 准备 ,获取 研究 主题 的 主题 记 
代 i 苯 次 基于 领域 本 体 对 词 袋 中 的 词汇 进行 概念 呐 身 
统 包 映射 后 的 概念 频次 ;随后 截取 高 频 概 念 构建 概念 
敌 帝 ,并 基于 领域 本 体 计算 概念 间 的 语义 距离 ,最 后 进 
行 可 视 化 呈现 与 结果 判读 ,如 图 1 所 示 : 


到 卉 策 江 


次 里 诊 草 


统计 频次 


截取 高 频 概念 


概念 矩阵 


图 1 语义 距离 计算 流程 


4 实证 分 析 
医学 信息 学 是 一 门 涉及 医学 .计算 机 科学 和 信息 
科学 的 新 兴 交 叉 学 科 。 目 前 ,基于 医学 信息 学 分 析 的 
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研究 结果 不 断 应 用 于 临床 数据 分 析 、 药 物 管理 ,疾病 建 
模 、 患 者 生存 预后 等 方面 。 因 此 ,准确 识别 医学 信息 
学 领域 的 研究 主题 ,有 助 于 加 强 科研 管理 的 战略 性 
导向 ,对 该 领域 的 研究 者 具有 重要 的 指导 意义 。 笔 
者 以 “医学 信息 学 ”领域 为 例 ,对 该 领域 进行 主题 抽 
取 , 并 进行 基于 本 体 的 主题 分 析 , 从 而 对 上 述 方法 进 
行 实 证 。 
4.1 语料库 构建 

选择 Web of Science 核心 合集 作为 文献 集合 的 数 
据 来 源 。 为 全 面 收 集 医 学 信息 学 领域 的 相关 文献 , 采 
用 Web of Science 核心 合集 的 “学 科 类 别 ” 检索 功 能 。 
Web of Science 核心 合集 共有 252 个 学 科 类 别 ,“ medi- 
cal informatics” 是 其 中 之 一 。 收 集 “ medical informatics” 
类 别 下 的 2007 至 2016 年 的 文献 , 共 命中 35 981 的 条 
目 (下载 时 间 为 2017 年 1 月 3 日 )。 随 后 ,基于 LDA 
模型 抽取 该 领域 的 研究 主题 , 共 得 到 医学 信息 学 领域 
的 19 个 主要 的 研究 主题 ,如 表 1 所 示 : 

表 1 医学 信息 学 领域 研究 主题 列表 


Se 


序号 主题 名 称 序号 主题 名 称 
1 肿瘤 图 像 分 析 11 卫生 信息 系统 评价 
2 数据 挖掘 算法 在 医学 领域 的 应 用 12 疾病 生存 模型 研究 
3 ”医学 文本 知识 提取 13 医学 信息 学 方法 与 技术 研究 
4 健康 医疗 app 14 电子 病历 及 电子 健康 记录 
5 社区 卫生 服务 研究 15 疾病 风险 预测 
6 ”临床 决策 支持 研究 16 计算 机 辅助 的 疾病 诊断 
7 基于 网 络 和 计算 机 的 新 医疗 模式 17 机 器 学 习 方 法 在 医疗 中 的 应 用 
8 疾病 诊断 系统 和 疾病 分 类 方法 研究 |‖| 18 临床 知识 语义 分 析 
9 ”医疗 软件 的 开发 与 应 用 19 大 数据 背景 下 医学 数据 平台 
10 医疗 系统 和 医疗 数据 集成 研究 构建 


4.2 语义 类 型 分 析 

基于 LDA 方法 识别 出 的 研究 主题 ,采用 
MetaMap'” 来 实现 基于 UMIS 本 体 映 射 ,将 能 表征 研 
究 主题 的 主题 词 转换 成 UMLS 本 体 中 的 知识 概念 ,使 
这 些 主题 词 的 语义 得 以 抽象 ,将 医学 信息 学 领域 的 研 
究 主 题 进行 概念 映射 后 ,部 分 结果 见 表 2。 

对 语义 类 型 进行 进一步 统计 ,分 析 不 同 主题 的 语 
义 类 型 。 表 3 列 出 的 是 医学 信息 学 领域 研究 主题 的 概 
念 及 其 语义 类 型 。 从 该 领域 的 语义 类 型 信息 来 看 , 主 
要 可 以 分 为 以 下 7 个 方面 : 

(1) 概念 类 。 包 括 概 念 实体 (Conceptual Entity ) 、 
思想 或 概念 (Idea or Concept) .定性 概念 (Qualitative 
Concept) 定量 概念 (Functional Concept) .功能 性 概念 
( Functional Concept) 空间 概念 (Spatial Concept) .时 间 
概念 (Temporal Concept) 等 。 
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表 2 主题 -概念 -语义 类 型 表 ( 部 分 ) 


主题 概念 语义 类 型 
Tl Image (Medical Image) Intellectual Product 


T4 


人 研究 活动 (Research Acetivity)、 职业 活动 ( Occupational 
Activity) 教育 活动 (Educational Activity ) .心理 过 程 


Tumour (Neoplasms ) 


Detection 


Algorithm (algorithm ) 

MRI (Magnetic Resonance Ima- 
ging) 

Optimization 

Shape (Shapes ) 

3D (Three -dimensional) 


CT (Computed Tomography Study 
File) 


Feature ( Array Feature) 
Algorithm (algorithm) 
Performance 

Retrieval 

Clustering (statistical cluster) 
Optimal (Optimum) 

Language (Languages) 

Query (Question (inquiry) ) 
search (search - EntityNameUse) 


Corpus (Body of uterus ) 


) Adaptive (adaptive ) 


information search ( information 


searching ) 
Text 


Rehabilitation, Medical ( Reha- 


bilitation therapy) 


Biomedical ( Biomedicine ) 


Clinical 
Old 
Semantic (Semantics) 


Mobile Application ( Mobile Ap- 


plications ) 
objectives (objective (goal) ) 


Rationale (Indication of (contex- 


tual qualifier) ) 

DEVICES (Medical Devices) 
Patients 

User (user - Facility type) 


Life 


Neoplastic Process 


Therapeutic or Preventive Proce- 


dure 
Intellectual Product 


Diagnostic Procedure 


Activity 
Spatial Concept 
Spatial Concept 


Intellectual Product 


Conceptual Entity 
Intellectual Product 
Individual Behavior 
Health Care Activity 
Research Activity 
Qualitative Concept 
Language 


Intellectual Product 


Intellectual Product 


Body 


Component 


Part, Organ, or Organ 


Functional Concept 


Occupational Activity 


Intellectual Product 


Therapeutic or Preventive Proce- 


dure 


Biomedical Occupation or Disci- 


pline 

Qualitative Concept 
Temporal Concept 
Idea or Conce 


Intellectual Product 


Intellectual Product 


Idea or Concept 


Medical Device 
Patient or Disabled Group 
Idea or Concept 


Idea or Concept 


(2) 行 为 类 。 包 括 健康 护理 活动 (Health Care Ac- 
tivity) 活动 (Acetivity) 个 人 行为 (Individual Behavior) 、 


( Mental Process) .语言 (Language) 等。 


(3) 人 和 群 类 。 包 括 患 者 和 残疾 人 组 (Patient or Dis- 
abled Group) 、 人口 (Population Croup) 专业 和 职业 组 
( Professional or Occupational Group ) 等 。 

(4) 治疗 与 诊断 类 。 包 括 治疗 或 预防 程序 (Thera- 
` 结 果 (Finding) ,临床 属 
性 (Clinical Attribute ) 诊断 程序 (Diagnostic Proce- 


peutic or Preventive Procedure ) 


dure ) 。 

(5) 人 体 功 能 与 现象 类 。 包 括 遗 传 功能 ( Genetic 
Function ) 生物 功能 (Organism Function ) .肿瘤 过 程 等 
(Neoplastic Process ) 。 

(6) 材 料 与 设备 类 。 包 括 医疗 设备 ( Medical De- 
vice) .制造 对 象 ( Manufactured Object) .人 研究 设备 ( Re- 
search Device ) 等 。 

(7) 职 业 类 。 包 括 职 业 或 学 科 ( Occupation or Dis- 
cipline) 生物 医学 职业 或 学 科 ( Biomedical Occupation 
or Discipline ) 。 

将 语义 类 型 矩阵 进行 可 视 化 展示 ,为 清晰 地 呈现 
结果 ,图 2 将 主题 -语义 类 型 的 连 线 是 阔 值 大 于 等 于 2 
的 显示 出 来 ,其 中 方形 节点 为 研究 主题 , 圆 形 节点 为 语 
义 类 型 ,节点 间 的 连 线 的 粗细 代表 其 关联 强度 。 


T16 
国 T8 
国 T12 Manufactured Object 
国 T17 
国 T3 Spatial Coneept Ts Tg TO 

Tl / 人 
6 国 T14 Research Device 
i Health Care Activity 
IT19. ~ 
4 ntellectual Produet NS 
re 11l1 


ldea or Concept ———@ Qualitative Concept 


TI18 看 T2 


Functional Concept 
SN 

吕 
Individual Behavior 人 曾 T15 


Disease or Syndrome 


Body Part Organ, or Organ Component 


图 2 语义 类 型 图 谱 


从 图 2 中 可 以 看 出 ,医学 信息 学 领域 的 研究 主题 
具有 一 些 共同 的 语义 类 型 ,如 intellectual product (智力 
产品 ) .health care activity ( 健康 医疗 活动 ) .functional 
concept( 功能 性 概念 ) 等 。 绪 合 研究 主题 内 容 和 语义 
类 型 可 以 发 现 , 主 题 1( 肿 瘤 图 像 分 析 ) .主题 2( 数 据 发 
掘 算法 的 医学 应 用 ) .主题 4( 健 康 医疗 app) .主题 6 
(临床 决策 支持 ) .主题 18 ( 临床 知识 语义 分 析 ) .主题 
19( 大 数据 背景 下 的 医学 数据 平台 构建 ) 主要 围绕 着 
算法 模型 .标准 ,协议 .技术 等 智力 产品 ”展开 研 究 。 

主题 5( 社 区 卫生 服务 研究 ) 主要 针对 远程 医疗 等 
“健康 护理 活动 "进行 研究 。 主 题 7( 基 于 网 络 和 计算 
机 的 新 医疗 模式 ) 涉及 医疗 干预 .自我 管理 等 “健康 护 
理 活动 ” 以 及 新 医疗 模式 下 的 技术 、 方 法 等 “智力 产 
品 ” 。 主 题 15( 疾 病 风 险 预 测 ) 包 括 心脏 、 血 管 等 “人 体 


HH 0o 
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表 3 语义 类 型 矩阵 


语义 类 型 


Activity 1 
Biomedical Occupation or Discipline 1 
Body Part, Organ, or Organ Component 1 
Classification 
Clinical Attribute 
Conceptual Entity 1 
Diagnostic Procedure 1 
Disease or Syndrome 
Educational Activity 
Finding 
Functional Concept 1 
Genetic Function 
ealth Care Activity 1 2 
If or Conce 1 
(em Concept 3 
idual Behavior 1 
enal Product 3 3 1 2 1 


Cuar 1 


Cfactured Object 
【vm | Device 1 


ital Process 


Neoplastic Process 1 


Cadre Acid，Nucleoside ，or Nucleotide 
dpim or Discipline 
Qeeapational Activity 1 
rganism Function 

Patient or Disabled Group 1 
Ei Group 

sssional or Occupational Group 1 
Qualitative Concept 1 1 1 
Quantitative Concept 1 
Research Activity 1 
Research Device 
Self-help or Relief Organization 1 
Spatial Concept 2 
Substance 
Temporal Concept 1 


Therapeutic or Preventive Procedure 1 1 


部 位 、 右 官 或 成 分 ”, 冠 心病 、 心 衰 等 “疾病 或 症状 ”, 分 
析 疾 病 风 险 。 

综合 分 析 主 题 的 内 容 和 语义 类 型 ,有 助 于 为 研究 
主题 的 解读 提供 更 多 信息 。 
4.3 语义 关联 分 析 

对 于 语义 距离 的 计算 ,基于 UMLS 本 体 采用 Lea- 
cock Chodorow 法 计算 概念 之 间 的 语义 距离 ,并 借助 


100 


UMLS: :Similarity'“ 在 线 系统 ,实现 语义 距离 的 计算 。 
为 优化 可 视 化 效果 ,选择 z-score'” 作为 标准 化 方法 ， 
得 到 语义 矩阵 。 

表 4 为 相似 矩阵 ,表格 中 的 数值 代表 不 同 主题 之 
间 的 相似 性 ,数值 越 大 相似 性 越 高 ,语义 距离 越 近 。 数 
值 为 “1” 代 表 同 一 主题 ,数值 为 “0” 代 表 两 个 主题 不 具 
有 语义 相关 度 。 


ChinaXiv 合 作 期 刊 


冯 佳 , 张 云 秋 . 基于 本 体 的 研究 主题 语义 分 析 方 法 研究 [J]. 图 书 情报 工作 ,2018 ,62(7) :96 - 103. 


表 4 语义 矩阵 ( 部 分 ) 


主题 TI 了 13 T4 15 T6 7 T% T9 TI0 
Tl 1 0 0 0 0 0 0 0 0 0 
了 站 1 0.167 0.0914 0 0.0826 0 0.1 0 0 
T3 0 0.167 1 0. 167 0 0.2197 0 0 2“ 
T4 0 0.0914 0.167 是 0 0.0686 0.1 0 0 0.1 
3 0 0 0 0 ' 0.1 0 0 0 0 
T6 0 0.0826 0.2197 0.0686 0.1 时 dl1, 0 0 0 
T7 0 0 0 0.1 0 0.1 中 0 0 0 
T8 0 0.1 0 0 0 0 0 0 0 
T9 0 0 0.2 0 0 0 0 0 下 0 
TI0 0 0 0 0Q.1 0 0 0 0 0 ll 
为 进一步 分 析 不 同 主题 间 的 语义 距离 ,对 语义 距 
离 矩 阵 进行 可 视 化 ,结果 如 图 3 所 示 。 图 3 中 的 主题 


es 疾病 诊断 系统 和 疾病 分 类 方法 研究 
TI17: 机 器 学 习 方法 在 医疗 中 的 应 
T4: 健康 医疗 app 


者 T1: 肿 冶 图 像 分 析 


5V1 


T5: 社区 卫生 服务 研究 


& 


bo ~ 
F 网 络 和 计算 机 的 新 医疗 模式 


T2: 数 据 挖掘 算法 在 医学 领域 的 应 


$a 


QO 


A 


Fa 6: 计算 机 辅助 的 疾病 诊断 
:临床 决策 支持 研究 


以 不 同 序号 和 大 小 显示 ,圆圈 的 大 小 代表 主题 的 相对 
规模 , 连 线 的 粗细 代表 主题 之 间 的 语义 关联 强度 。 

通过 对 语义 关联 和 矩阵 可 视 化 图 谱 的 解读 ,可 以 畏 
助 研 究 者 综合 分 析 不 同 的 研究 主题 ,例如 图 3 中 语义 
关联 最 强 的 两 个 主题 是 T17( 机 器 学 习 方 法 在 医疗 中 
的 应 用 ) 与 T4( 健 康 医疗 app) ,结合 文档 - 主题 概率 
分 布 和 主题 - 词汇 概率 分 布 ,从 语义 内 容 上 分 析 可 知 
健康 医疗 app 通过 可 穿戴 设备 来 监测 人 体 的 心 电 、 脑 
电 \ 肌 电信 和 号 ,并 结合 深度 学 习 等 数据 挖掘 算法 ,实现 
健康 数据 的 分 析 与 管理 。 

表 5 为 研究 主题 语义 矩阵 的 中 心 度 列表 , 从 表 中 
可 以 解读 出 该 领域 的 研究 核心 和 重点 ,并 预测 出 未 来 
的 研究 方法 。 从 表 5 可 知 ,在 医学 信息 学 领域 的 研究 
主题 中 ,中心 度 最 高 的 为 T4 (健康 医疗 
app) ,这 表明 目前 该 领域 的 研究 重点 在 此 ， 
并 且 健 康 医 疗 app 的 研究 涉及 医学 信息 学 领 
域 的 各 个 研究 方向 ,如 TI17( 机 器 学 习 方法 在 
医疗 中 的 应 用 ) TI2( 数 据 挖掘 算法 在 医学 领 


0 WY > -2 区 
5 临床 知识 语义 分 析 TIS 疾 油 风险 预测 4 电子 病历 及 虹 于 健康 记录 
J 庄 信 各 
ee 生 人 信息 系统 评价 fs 医疗 软件 的 


CO \ gr Se a 域 的 应 用 ) ,T13( 医学 信息 学 方法 与 技术 研 
ve 7 oe 究 ) ,IT9( 医疗 软件 的 开发 与 应 用 ) 等 多 个 方 
CN Ra 面 ,健康 医疗 app 需要 综合 医学 信息 学 领域 的 
OO TIS 大 数据 背景 下 医学 数据 平台 格 建 研究 多 种 方法 和 技术 ,因此 针对 健康 医疗 app 的 研 
pi 3 ”语义 矩阵 可 视 化 图 谱 发 过 程 中 涉及 到 的 方法 .技术 和 软件 开发 与 
.之 应 用 是 医学 信息 学 领域 未 来 的 研究 方向 。 
>< 表 5 研究 主题 语义 矩阵 中 心 度 列表 
绝对 点 度 中 心 度 十 占 认 中 小 \ 讼 人 
.和 #6 ee ， 
大 sa T8 :健康 医疗 app 1.49 16. 605 0. 126 
© T53 :机 器 学 习 方法 在 医疗 中 的 应 1.467 16. 353 0. 124 
T17 :临床 决策 支持 研究 1. 132 12.615 0. 096 
T31: 卫 生 信 息 系统 评价 0.9 10.031 0.076 
T3 :数据 挖掘 算法 在 医学 领域 的 应 用 0. 843 9.39 0.071 
T41 :医学 信息 学 方法 与 技术 研究 0.8 8.916 0.068 
T24 :医疗 系统 和 医疗 数据 集成 研究 0.8 8.916 0.068 
T9 :社区 卫生 服务 研究 0.774 8.626 0. 065 
T46 :疾病 风险 预测 0.718 7.997 0.061 
T58 :大 数据 背景 下 医学 数据 平台 构建 研究 0.6 6.687 0.051 
T45 :电子 病历 及 电子 健康 记录 0.5 5.573 0.042 
T22 :医疗 软件 的 开发 与 应 用 0.4 4.458 0.034 
T34: 疾 病 生存 模型 研究 0.3 3.344 0.025 
T19 :基于 网 络 和 计算 机 的 新 医疗 模式 0.2 2.229 0.017 
T21 :疾病 诊断 系统 和 疾病 分 类 方法 研究 0.2 2. 229 0.017 
到 :医学 文本 知识 提取 0.2 2.229 0.017 
T48 :计算 机 辅助 的 疾病 诊断 0.2 2.229 0.017 
TS4 :临床 知识 语义 分 析 0.2 2.229 0.017 
T1 :肿瘤 图 像 分 析 0 0 0 
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从 语义 关联 图 谱 中 ,可 以 看 出 医学 信息 学 领域 各 
主题 的 语义 相关 信息 ,在 分 析 研 究 主题 的 过 程 中 ,可 
ea nei 
内 容 上 具有 一 定 的 关联 。 这 种 方法 在 一 定 程度 上 体现 
出 了 专家 的 智慧 ,是 一 种 人 工 智 能 化 的 结果 分 析 , 可 以 
使 医学 信息 学 领域 的 研究 者 快速 直观、 清晰 地 理解 本 
ee i 页 域 的 研究 专家 ,该 结果 能 够 辅 
领域 信息 的 研判 ,并 在 主题 关联 的 分 析 中 ,发 现 
eh i 


本 | 人 


笔者 提出 基于 本 体 的 研究 主题 语义 分 析 方法 ,从 
义 类 型 分 析 和 语义 关联 分 析 丙 个 维度 展开 ,语义 类 
ri 能 够 辅助 研究 者 对 研究 主题 的 内 容 进行 进一步 
的 顺义 理解 ;语义 关联 分 析 从 语义 角度 分 析 了 各 个 研 
完 吉 是 在 语义 合 义 上 的 关联 ,能 够 辅助 研究 者 在 分 析 
甘 域 研究 主题 时 ,综合 分 析 相关 主题 ,并 发 现 新 的 研 


© 
究 交 又 点 。 

到 本 文 在 研究 主题 分 析 方面 进行 了 一 定 的 探索 , 然 
而 网 针对 研究 主题 的 语义 类 型 和 语义 关联 进行 了 简明 
的 宕 折 。 在 未 来 的 研究 工作 中 ,将 进一步 控 气 研究 主 


题 的 语义 信息 ,结合 目前 成 熟 的 语义 分 析 技术 ,对 科技 


文献 中 的 研究 主题 进行 更 加 深入 的 探索 ,以 期 为 科技 
创新 和 科技 决策 提供 支持 和 帮助 。 
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Study on Semantic Analysis Method of Research Topics Based on Ontology 
Feng Jia Zhang Yunqiu 
Public Health School, Jilin University, Changchun 130021 

Abstract: [Purpose/significance | This paper aims at analyzing the research topics by going deeper into the seman- 
tic dimension. | Method/ process | This paper proposed a semantic analysis method based on ontology, which includes the 
semantic type analysis and semantic relevance analysis. Then, in the empirical study, this paper took “ medical informat- 
ics” as an example to verify the method. [ Result/conclusion | This paper reveals that semantic type analysis can help re- 
searchers make a further semantic understanding for the research topics. Semantic relevance analysis analyze the semantic 
meaning of each research topic from the semantic perspective, when assisting researchers in analyzing a research topic in a 
field, it can realize the relevance analysis of every topic synthetically, and find some research intersections. 


Keywords: research topic semantic analysis ontology 
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ProQuest 与 台湾 师范 大 学 携手 将 该 校 博 硕士 论文 推 向 世界 


台湾 师范 大 学 率先 加 入 全 球 博 硕士 论文 出 版 计划 (Global Dissertation Publishing Program ) 。 作 为 世界 上 规模 最 
的 毕业 生 学 术 研 究 成 果 数 据 库 , 全球 博 硕士 论文 全 文 数据 库 (ProQuest Dissertations & Theses TMGlobal, 简称 
SDPQDT Global) 汇 集 了 全 球 硕 尖 大 学 毕业 生 的 博 硕 士 论文 ,并 首次 为 全 球 研究 人 员 提供 来 自 台 湾 的 博 研 士 论文 。 
CN 。 台湾 师范 大 学 加 入 PQDT 出 版 计划 ,将 授权 ProQuest 编辑 出 版 该 校 毕业 生 的 大 量 博 硕 士 论文 ,并 收录 在 其 
EJPQDT Global 数据 库 。 这 一 举措 使 全 球 超过 3000 所 高 校 读者 可 通过 这 一 数据 库 发 现 台湾 高 校 研究 生 的 学 术 研 究 成 
, 果 , 从 而 推动 全 球 科研 的 进步 , 同时 也 有 助 台湾 高 校 向 海外 传播 其 学 生 的 学 术 研 究 成 果 。 此 外 ,读者 还 可 以 通过 
之 全 球 知 名 的 各 类 索引 数据 库 以 及 学 术 资源 发 现 系 统 广 泛 获 取 这 些 论文 的 题 录 信息 。 
台湾 师范 大 学 图 书馆 馆 长 柯 浩 仁 博士 表示 : 我们 很 荣幸 成 为 台湾 第 一 所 在 PQDT Global 上 发 表 学 生 学 术 研究 

二 成 果 的 高 校 ,这 种 伙伴 关系 将 使 全 球 更 广泛 范围 的 读者 了 解 我 们 的 研究 人 员 ,提高 我 校 的 科研 水 平 , 并 展示 台湾 博 
忆 硕 十 论文 的 重要 性 。” 

CO ProQuest 产品 管理 部 总 监 Austin MeLean 表示 :“ 在 台湾 ,包括 台湾 师范 大 学 在 内 的 许多 高 校 学 术 研 究 水 平 极 
高 。 随 着 PQDT Global 的 用 户 群 体 不 断 扩大 ,这 一 伙伴 关系 将 为 该 地 区 出 色 的 研究 活动 提供 卓越 的 展现 平台 。” 
PQDT Global 数据 库 创建 于 1939 年 ,致力 于 发 现 并 保存 世界 各 地 研究 型 大 学 的 博 硕 士 论 文 ,是 目前 世界 上 规模 
最 大 、 最 具 权 威 性 的 博 硕士 论文 全 文 数据 库 ,收录 和 逾 450 万 篇 博 硕 士 论 文 ,其 中 220 万 篇 提供 全 文 ,全 球 超过 3000 
所 高 校 用 户 选用 了 这 一 数据 库 。 除 海量 的 论文 全 文 信息 外 ,该 库 中 的 大 量 论文 还 包含 多 媒体 课件 (组 件 ) 以 及 数据 
集 等 非 文 本 信息 ,从 而 为 研究 人 员 提 供 了 多 元 化 的 信息 类 型 ,支持 他 们 的 研究 与 教学 。 
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ProQuest 致力 于 向 读者 提供 真实 .可靠 的 信息 。 这 些 重要 的 资源 是 支撑 研究 人 员 开启 世界 知识 之 门 的 关键 所 
在 ,我 们 的 产品 覆盖 广泛 的 内 容 ,包括 : 博 硕士 论文 政府 档案 、 新 闻 报 道 ` 历 史 文 档 和 电子 图 书 等 。 我们 提供 的 技 
术 方 案 适用 于 科研 过 程 中 的 关键 环节 , 有 助 于 他 们 发 现 、 获 取 、 共 享 、 创 建 和 管理 信息 。 

除 ProQuest 旗舰 品牌 系列 产品 ,我 们 还 拥有 源 自 其 他 业务 部 门 的 多 项 基于 云 计算 的 技术 ,可 为 图 书馆 馆 员 、 学 
生 及 研究 人 员 提 供 具 有 灵活 性 的 解决 方案 ,包括 Bowker® 、Coutts@ information services、 Dialog® ebrary® EBL® 
和 SIPX® 等 ,同时 还 提供 著名 的 研究 工具 ,例如 :Summon 发 现 服务 .RefWorks® 引文 与 文献 管理 平台 、MyiLibrary® 
电子 图 书 平台 .Pivot® 国际 学 术 基 金 和 学 者 交流 平台 和 Intota 图 书馆 服务 平台 。 我 们 公司 总 部 位 于 美国 密歇根 州 
安娜 堡 市 ,在 全 球 各 地 设立 有 办 事 处 。 
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